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Objectif : capture des métadonnées contenues dans les documents courants 


Ces travaux font suite au travail de débroussaillage réalisé par Vincent François, de WebConforme, pour 
identifier les métadonnées présentes dans les documents, et pouvant être extraites par Alfresco. Nous 
avions relevé qu’Alfresco sélectionnait une partie des métadonnées détectées par l’outil ExifToolQde Phil 
Harvey, et qu’il serait pertinent de voir si un emploi direct d’ExifTool nous permettrait de récupérer plus 
de métadonnées, et d’en tirer une fiche LOM. Nous nous sommes donc concentrés sur les métadonnées 
contenues dans LOM. 

Nous avons également relevé qu’ExifTool permettait la manipulation des métadonnées dans certains cas, 
et envisagé de nous en servir pour enrichir les documents. En effet, ExifTool permet, dans certains cas, 
d'éditer les valeurs de métadonnées contenues dans les documents. Toutefois, nous avons dû abandonner 
ce second objectif, car l’édition est surtout gérée pour les formats graphiques, grâce à la norme Exif[^J 
mais ce type de fichiers n’est pas des plus importants pour les REA. Il est également possible d’éditer des 
métadonnées génériques XMP0 telles que présentes dans les types de documents définis par Adobe, y 
compris PDF. En théorie, des métadonnées XMP peuvent être intégrées dans toutes sortes de formats 
binaires ; mais en pratique, ExifTool ne se risque pas à ajouter des données XMP à des formats binaires 
qui ne sont pas prévus à cet effet. Donc, ExifTool ne permet pas d’édition de données dans les principaux 
formats de documents éditables, soit les suites Microsoft Office, OpenOffice ; ni d’éditer les métadonnées 
dans un document HTML. On peut consulter la liste des formats lus et écrits^Jdans la documentation 
d’ExifTool. 


1. http ://www.sno.phy.queensu.ca/~phil/exiftool/ 

2. http ://exif.org/ 

3. http ://www.adobe.com/products/xmp/ 

4. http ://www.sno.phy.queensu.ca/~phil/exiftool/#supported 
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Méthodologie 


Base de tests, métadonnées présentes 


Nous sommmes partis, pour la base de tests, des documents de tests fournis avec ExifTool. Nous y avons 
adjoints quelques fichiers ad hoc, en particulier des documents Microsoft Office, Open Office et iWorks, 
qui ne sont pas tous dans la suite de texte fournie, ou qui ne contenaient pas autant de métadonnées que 
possible. Cette liste ne correspond pas exactement aux fichiers employés dans l’étude de WebConforme, 
mais contient les principaux types mentionnés et pourra être enrichie avec des exemples. Nous avons 
appliqué ExifTool à chacun de ces fichiers pour en extraire les métadonnées, et avons sélectionné celles 
qui pouvaient correspondre à des champs LOM, en regardant à la fois le nom de la métadonnée et son 
contenu dans les fichiers de test. 


Détection et résolution de conflits 


Dans de nombreux cas, ExifTool retrouve plusieurs métadonnées pouvant servir de base à un même 
champ LOM, parfois même dans un même fichier. (Par exemple, pas moins de 30 métadonnées différentes 
pour la date, et une dizaine d'autres dont le nom contient Date mais qui ne sont pas pertinents, comme par 
exemple PatientBirthDate) Nous avons donc automatisé l’identification des fichiers où plusieurs valeurs 
venant de métadonnées différentes entraient en conflit pour une seule métadonnée LOM dans un fichier 
donné, et avons tenté d’évaluer quelle(s) métadonnée(s) devaient prévaloir. Dans certains cas, plusieurs 
valeurs sont présentées et rien n’indique la valeur correcte, et nous avons dû prendre une décision plausible. 
Nous avons donc tenté de regrouper les métadonnées en ordre de priorité : par exemple, une donnée de 
type Title a prévalence sur le Filename. 

Notons que certains concepts n’ont pas d’équivalent évident dans les métadonnées fournies ; par exemple, 
le rôle de Contributeur pourrait correspondre aux utilisateurs du mécanisme de révision dans Microsoft 
Office, mais seul le dernier éditeur est relevé par ExifTool. 


Outil de génération de LOM 


À partir de la liste ordonnée des métadonnées, nous pouvons générer un fichier XSLT permettant la 
transformation automatisée des données fournies par ExifTool (sous forme de XML) en une fiche LOM 
partiellement remplie, contenant les métadonnées extraites du document. Il serait souhaitable de pouvoir 
dire que ce fichier XSLT est suffisant pour opérer la conversion ; toutefois, certains cas limite nous ont 
obligé à employer des extensions à XSLT (entre autres, ExifTool code parfois de l’information binaire en 
format Base64.) Nous avons donc une implantation hybride basée sur XSLT et péri. La première version 
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de l’outil, encore employée pour la base de tests, utilise également python et Ixml ; mais nous avons jugé 
préférable de recoder les composantes essentielles en péri, comme ExifTool lui-même, pour faciliter la 
distribution. 

Cet outil est disponible comme logiciel libre sur GitHubJ^ L’outil est utilisable en commande ligne, et 
est capable de traiter des fichiers ou des URLs. L’outil a également été emballé sous d’application pour 
MacOSX 10.7+ à l’aide du logiciel Platypus^ Cette version emballée est disponible iciQ La création d’une 
version Windows pourrait être envisagée si le besoin s’en fait sentir. 


5. https ://github.com/GTN-Quebec/exif2lom 

6. http ://sveinbjorn.org/platypus 

7. https ://github.com/downloads/GTN-Quebec/exif2lom/Exif2LOM.dmg 


6 


Travaux futurs 


Il est encore souhaitable d’étendre la base de test, mais cela peut être fait au fur et à mesure. Il serait 
peut-être souhaitable d’étendre les mécanismes de tests pour inclure les valeurs attendus pour certains 
fichiers de tests. À court terme, il serait souhaitable de rendre l’outil disponible à un public plus large ; cela 
pourrait impliquer d’ouvrir le source, de mieux le documenter, etc. ou à tout le moins d'en faire une version 
sous forme d’exécutable simple, qui générerait le LOM en y faisant glisser un fichier quelconque. 

À plus long terme, il serait intéressant d’explorer des variantes basées sur une génération d'autres formats 
de métadonnées, tels MLR. Même si ExifTool est très limité en ce sens, il demeurerait pertinent de garder 
un oeil ouvert sur les outils d’édition de métadonnées. L’idéal serait de développer un outil qui assisterait 
les utilisateurs à voir, corriger et même enrichir les métadonnées enchâssées dans leurs fichiers, au 
moins lorsque c’est possible. Ainsi, nous pourrions encourager les producteurs de documents à définir des 
métadonnées correctes dans les documents. 

En effet, il ne faut pas se leurrer : les métadonnées contenues dans les documents sont souvent invalides. 
Dans certains cas, il pourrait être intéressant de faire des études pour évaluer cette qualité, en comparant 
par exemple la langue donnée en métadonnée avec la langue reconnue dans un texte. Mais c’est là un tout 
autre projet. 
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Appendice : Tableau-synthèse. 


Voici la liste des métadonnées extraites à partir de nos fichiers de test. Certaines des métadonnées étaient 
absentes des résulats antérieurs, notamment les dates, la taille du fichier, les informations relatives au lieu, 
et le texte de copyright. Quant aux autres, nous pouvons parfois récupérer des données non-reconnues 
dans l’étude précédente, probabablement parce qu’Alfresco ignorait quelle méta-donnée tirer de ExifTool. 
(Par exemple, nous reconnaissons la langue plus souvent qu’Alfresco.) 
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